3.4 处理组的平均因果效应 其他被估计量

前面的章节在可忽略性和重合度假设下, 研究 τ=E[Y(1)Y(0)]. 我们可以把这个讨论延伸到实验组和对照组上: τT=E[Y(1)Y(0)|Z=1],τC=E[Y(1)Y(0)|Z=0]. 如果 τT,τCτ 不同, 则平均因果效应在两个组上表现不同. 当然具体研究哪个取决于实际问题. 因为对称性, 本节只研究 τT.

1 τT 的非参数表示

实验组的平均因果效应可以写为 τT=E[Y(1)|Z=1]E[Y(0)|Z=1], 这里第一项可以从数据中直接看到, 但是 E[Y(0)|Z=1] 是虚构的. 我们需要给出如下假设:

假设 ("单侧"可忽略性, 和重合度)

ZY(0)|X, 以及 e(X)<1.

定理 1.1

在上述假设下,E[Y(0)|Z=1]=E[E(Y|Z=0,X)|Z=1]=E(Y|Z=0,X=x)f(x|Z=1)dx.

这说明 τT 非参数地等于 τT=E[Y|Z=1]E[E(Y|Z=0,X)|Z=1].

例子

如果我们对所有单元指定一个线性模型 E[Y|Z,X]=β0+βzZ+βxTX,τT=E{E(Y|Z=1,X)E(Y|Z=0,X)|Z=1}=βz.
如果我们跑一个 OLS 得到 (β^0,β^z,β^x), 则我们能用 β^z 来估计 τT.

例子

因为公式里只取决于 E[Y|Z=0,X], 所以我们要对控制组指定一个模型, 设为 E[Y|Z=0,X]=β0|0+βx|0TX, 我们有τT=E[Y|Z=1]E[β0|0+βx|0TX|Z=1]=E[Y|Z=1]β0|0βx|0TE[X|Z=1].
如果我们只对对照单元跑 OLS 来得到 (β^0|0,β^x|0), 则估计量为 τ^T=Y^(1)β^0|0β^x|0TX^(1). 根据 OLS 的性质, Y^(0)=β^0|0+β^x|0TX^(0), 所以 τ^T={Y^(1)Y^(0)}β^x|0T{X^(1)X^(0)}.

2 τT 的 IPW 和双重稳健估计

定理 2.1

依然在 上述假设 下, 我们有 (2.1)E[Y(0)|Z=1]=E[e(X)e1Z1e(X)Y],(2.2)τT=E[Y|Z=1]E[e(X)e1Z1e(X)Y], 这里 e=P(Z=1) 是实验处理的边界概率.

我们还有两个 IPW 估计量 (回顾 这里) τ^Tht=Y^(1)1n1i=1no^(Xi)(1Zi)Yi,τ^Thajek=Y^(1)i=1no^(Xi)(1Zi)Yii=1no^(Xi)(1Zi), 这里 o^(Xi)=e^(Xi)1e^(Xi) 是给定协变量后接受实验处理的概率的拟合值.

我们还有一个 E[Y(0)|Z=1] 的双向稳健估计量, 包含了倾向得分和结果模型: μ~0Tdr=E[o(X,α)(1Z){Yμ0(X,β0)}+Zμ0(X,β0)]e, 这里 o(X,α)=e(X,α)1e(X,α).

定理 2.2

上述假设 下, 如果 e(X,α)=e(X) 或者 μ0(X,β0)=μ0(X), 则 μ~0Tdr=E[Y(0)|Z=1].

基于 前面的总体版本, 我们可以为 τT 构造一个双重稳健估计量 .

τT 的双重稳健估计

基于 (Xi,Zi,Yi)i=1n, 我们能通过如下步骤得到 τT 的双重稳健估计量:

  1. 得到倾向得分 e(Xi,α^) 的拟合值, 以及几率 o(Xi,α^)=e(Xi,α^)1e(Xi,α^) 的拟合值.
  2. 得到对照组下结果 μ0(Xi,β^0) 的拟合值..
  3. 构造 τ^Tdr=Y^(1)μ^0Tdr, 这里 μ^0Tdr=1n1i=1n[o(Xi,α^)(1Zi){Yiμ0(Xi,β^0)}+Ziμ0(Xi,β^0)].

根据定义, 我们可以写出 e(Xi,α^)=τ^Treg1n1i=1no(Xi,α^)(1Zi){Yiμ0(Xi,β^0)} 或者 e(Xi,α^)=τ^Tht1n1i=1n{o(Xi,α^)(1Zi)+Zi}μ0(Xi,β^0).

3 其他被估计量

从条件平均因果效应 τ(X) 开始, 我们可以讨论观察性实验中的统一的待估计量形式. 记 τh=E[h(X)τ(X)]E[h(X)], 这里 h(X) 是权重函数, E[h(X)]0. 标准化项 E[h(X)] 保证了平均值一致.
在可忽略性下, τh=E[h(X){μ1(X)μ0(X)}]E[h(X)], 这引导出结果回归估计量 τ^h=i=1nh(Xi){μ^1(Xi)μ^0(Xi)}i=1nh(Xi).
此外, 我们可以说明 τh 有如下的权重形式 τh=E[ZYh(X)e(X)(1Z)Yh(X)1e(X)]/E[h(X)].
从这里看出, 每一个单元都被联系了一个权重, 来自被估计量的定义和逆倾向得分带来的权重. 最后, 实验单元被乘以权重 h(X)e(X), 而对照单元 h(X)1e(X). 下面是一些结果

群体 h(X) 被估计量 权重
结合 1 τ 1e(X), 11e(X)
实验组 e(X) τT 1, e(X)1e(X)
对照组 1e(X) τC 1e(X)e(X), 1
重合 e(X)1e(X) τO 1e(X), e(X)

这里 τO=E[e(X){1e(X)}τ(X)]E[e(X){1e(X)}] 是新的, 它相比 e(X) 接近 0/1 的 IPW, 更加稳定. 如果 e(X)τ(X), 则 τOτ.
但是这里能看出它只对 e(X)=12 的"摇摆不定的"人有最大的权重, 而对那些有极端倾向得分的人权重反而低. 它改变了初始的群体, 基于实际可能有错的倾向得分.